智能论文笔记

MedML: Fusing Medical Knowledge and Machine Learning Models for Early Pediatric COVID-19 Hospitalization and Severity Prediction

Junyi Gao , Chaoqi Yang , George Heintz , Scott Barrows , Elise Albers , Mary Stapel , Sara Warfield , Adam Cross , Jimeng Sun , the N3C consortium

分类：机器学习

2022-07-25

COVID-19的大流行造成了毁灭性的经济和社会破坏，使全球医疗机构的资源紧张。这导致全国范围内呼吁模型预测Covid-19患者的住院和严重疾病，以告知有限医疗资源的分配。我们回应针对儿科人群的其中一种。为了应对这一挑战，我们使用电子健康记录研究了针对儿科人群的两项预测任务：1）预测哪些儿童更有可能住院，而2）在住院儿童中，哪些孩子更有可能出现严重的症状。我们通过新颖的机器学习模型MEDML应对国家儿科Covid-19数据挑战。 MEDML根据超过600万个医学概念的医学知识和倾向得分提取了最预测的特征，并通过图神经网络（GNN）结合了异质医学特征之间的功能间关系。我们使用来自国家队列协作（N3C）数据集的数据评估了143,605名患者的MEDML，并在143,605名患者的住院预测任务中评估了严重性预测任务的11,465名患者。我们还报告了详细的小组级和个人级特征的重要性分析，以评估模型的解释性。与最佳的基线机器学习模型相比，MEDML的AUROC得分高达7％，AUPRC得分高达14％，并且自大流行以来的所有九个国家地理区域以及所有三个月的跨度都表现良好。我们的跨学科研究团队开发了一种将临床领域知识纳入新型机器学习模型的框架的方法，该框架比当前最新的数据驱动的功能选择方法更具预测性和可解释。

translated by 谷歌翻译

Developing a Knowledge Graph Framework for Pharmacokinetic Natural Product-Drug Interactions

Sanya B. Taneja , Tiffany J. Callahan , Mary F. Paine , Sandra L. Kane-Gill , Halil Kilicoglu , Marcin P. Joachimiak , Richard D. Boyce

分类：人工智能

2022-09-24

当植物天然产物与药物共容纳时，就会发生药代动力学天然产物 - 药物相互作用（NPDIS）。了解NPDI的机制是防止不良事件的关键。我们构建了一个知识图框架NP-KG，作为迈向药代动力学NPDIS的计算发现的一步。 NP-KG是一个具有生物医学本体论，链接数据和科学文献的全文，由表型知识翻译框架和语义关系提取系统，SEMREP和集成网络和动态推理组成的构建的科学文献的全文。通过路径搜索和元路径发现对药代动力学绿茶和kratom-prug相互作用的案例研究评估NP-KG，以确定与地面真实数据相比的一致性和矛盾信息。完全集成的NP-KG由745,512个节点和7,249,576个边缘组成。 NP-KG的评估导致了一致（绿茶的38.98％，kratom的50％），矛盾（绿茶的15.25％，21.43％，Kratom的21.43％），同等和矛盾的（15.25％）（21.43％，21.43％，21.43％ kratom）信息。几种声称的NPDI的潜在药代动力学机制，包括绿茶 - 茶氧化烯，绿茶 - 纳多洛尔，Kratom-Midazolam，Kratom-Quetiapine和Kratom-Venlafaxine相互作用，与已出版的文献一致。 NP-KG是第一个将生物医学本体论与专注于天然产品的科学文献的全文相结合的公斤。我们证明了NP-KG在鉴定涉及酶，转运蛋白和药物的药代动力学相互作用的应用。我们设想NP-KG将有助于改善人机合作，以指导研究人员将来对药代动力学NPDIS进行研究。 NP-KG框架可在https://doi.org/10.5281/zenodo.6814507和https://github.com/sanyabt/np-kg上公开获得。

translated by 谷歌翻译

Visual Transformer for Soil Classification

Aaryan Jagetia , Umang Goenka , Priyadarshini Kumari , Mary Samuel

分类：计算机视觉

2022-09-07

我们的粮食安全建立在土壤的基础上。如果土壤不健康，农民将无法用纤维，食物和燃料喂养我们。准确预测土壤的类型有助于规划土壤的使用，从而提高生产率。这项研究采用了最先进的视觉变压器，并与SVM，Alexnet，Resnet和CNN等不同模型进行了比较。此外，这项研究还着重于区分不同的视觉变压器体系结构。对于土壤类型的分类，数据集由4种不同类型的土壤样品组成，例如冲积，红色，黑色和粘土。 Visual Transformer模型在测试和测试时达到98.13％的训练和93.62％的范围，在测试和训练精度方面都优于其他模型。视觉变压器的性能超过了其他模型的性能至少2％。因此，新颖的视觉变压器可用于计算机视觉任务，包括土壤分类。

translated by 谷歌翻译

Fraud Detection Using Optimized Machine Learning Tools Under Imbalance Classes

Mary Isangediok , Kelum Gajamannage

分类：机器学习

2022-09-04

由于欺诈模式随着时间的流逝而变化，并且欺诈示例的可用性有限，以学习这种复杂的模式，因此欺诈检测是一项具有挑战性的任务。因此，借助智能版本的机器学习（ML）工具的欺诈检测对于确保安全至关重要。欺诈检测是主要的ML分类任务；但是，相应的ML工具的最佳性能取决于最佳的超参数值的使用。此外，在不平衡类中的分类非常具有挑战性，因为它在少数群体中导致绩效差，大多数ML分类技术都忽略了。因此，我们研究了四种最先进的ML技术，即逻辑回归，决策树，随机森林和极端梯度提升，它们适用于处理不平衡类别以最大程度地提高精度并同时降低假阳性。首先，这些分类器经过两个原始基准测试不平衡检测数据集的培训，即网站网站URL和欺诈性信用卡交易。然后，通过实现采样框架，即RandomundSampler，Smote和Smoteenn，为每个原始数据集生产了三个合成平衡的数据集。使用RandomzedSearchCV方法揭示了所有16个实验的最佳超参数。使用两个基准性能指标比较了欺诈检测中16种方法的有效性，即接收器操作特性（AUC ROC）和精度和召回曲线下的面积（AUC PR）（AUC PR）。对于网络钓鱼网站URL和信用卡欺诈事务数据集，结果表明，对原始数据的极端梯度提升显示了不平衡数据集中值得信赖的性能，并以AUC ROC和AUC PR来超越其他三种方法。

translated by 谷歌翻译

Machine learning meets false discovery rate

Ariane Marandon , Lihua Lei , David Mary , Etienne Roquain

分类： (统计)机器学习

2022-08-13

经典的错误发现率（FDR）控制程序提供了强大而可解释的保证，而它们通常缺乏灵活性。另一方面，最近的机器学习分类算法是基于随机森林（RF）或神经网络（NN）的算法，具有出色的实践表现，但缺乏解释和理论保证。在本文中，我们通过引入新的自适应新颖性检测程序（称为Adadetect）来使这两个相遇。它将多个测试文献的最新作品范围扩展到高维度的范围，尤其是Yang等人的范围。（2021）。显示ADADETECT既可以强烈控制FDR，又具有在特定意义上模仿甲骨文之一的力量。理论结果，几个基准数据集上的数值实验以及对天体物理数据的应用，我们的方法的兴趣和有效性得到了证明。特别是，虽然可以将AdadEtect与任何分类器结合使用，但它在带有RF的现实世界数据集以及带有NN的图像上特别有效。

translated by 谷歌翻译

Towards Smart Fake News Detection Through Explainable AI

Athira A B , S D Madhu Kumar , Anu Mary Chacko

分类：人工智能

2022-07-23

人们现在将社交媒体网站视为其唯一信息来源，因为它们的受欢迎程度。大多数人通过社交媒体获取新闻。同时，近年来，假新闻在社交媒体平台上成倍增长。几种基于人工智能的解决方案用于检测假新闻，已显示出令人鼓舞的结果。另一方面，这些检测系统缺乏解释功能，即解释为什么他们做出预测的能力。本文在可解释的假新闻检测中突出了当前的艺术状态。我们讨论了当前可解释的假新闻检测模型中的陷阱，并介绍了我们正在进行的有关多模式可解释的假新闻检测模型的研究。

translated by 谷歌翻译

Optimal precision for GANs

Thibaut Issenhuth , Ugo Tanielian , Jérémie Mary , David Picard

分类：机器学习 | 人工智能 | (统计)机器学习

2022-07-21

在学习断开分布时，已知生成对抗网络（GAN）面临模型错误指定。实际上，从单峰潜伏分布到断开连接的连续映射是不可能的，因此甘斯一定会在目标分布支持之外生成样品。这提出了一个基本问题：最小化这些领域的衡量标准的潜在空间分区是什么？基于几何测量理论的最新结果，我们证明，最佳甘恩必须将其潜在空间构造为“简单群集” - 一个voronoi分区，其中细胞是凸锥 - 当潜在空间的尺寸大于大于的数量时模式。在此配置中，每个Voronoi单元格映射到数据的不同模式。我们在gan学习断开的歧管的最佳精度上得出了上限和下限。有趣的是，这两个界限具有相同的减小顺序：$ \ sqrt {\ log m} $，$ m $是模式的数量。最后，我们执行了几项实验，以表现出潜在空间的几何形状，并在实验上表明gan具有与理论相似的几何形状。

translated by 谷歌翻译

ExoSGAN and ExoACGAN: Exoplanet Detection using Adversarial Training Algorithms

Cicy K Agnes , Akthar Naveed V , Anitha Mary M O Chacko

分类：人工智能 | 机器学习

2022-07-20

系外行星的检测为发现新的可居住世界的发现打开了大门，并帮助我们了解行星的形成方式。 NASA的目的是寻找类似地球的宜居行星，推出了开普勒太空望远镜及其后续任务K2。观察能力的进步增加了可用于研究的新鲜数据的范围，并且手动处理它们既耗时又困难。机器学习和深度学习技术可以极大地帮助降低人类以经济和公正的方式处理这些系外行星计划的现代工具所产生的大量数据的努力。但是，应注意精确地检测所有系外行星，同时最大程度地减少对非外界星星的错误分类。在本文中，我们利用了两种生成对抗网络的变体，即半监督的生成对抗网络和辅助分类器生成对抗网络，在K2数据中检测传播系外行星。我们发现，这些模型的用法可能有助于用系外行星的恒星分类。我们的两种技术都能够在测试数据上以召回和精度为1.00的光曲线分类。我们的半监督技术有益于解决创建标签数据集的繁琐任务。

translated by 谷歌翻译

Learning Topological Interactions for Multi-Class Medical Image Segmentation

Saumya Gupta , Xiaoling Hu , James Kaan , Michael Jin , Mutshipay Mpoy , Katherine Chung , Gagandeep Singh , Mary Saltz , Tahsin Kurc , Joel Saltz

分类：计算机视觉

2022-07-20

深度学习方法为多级医学图像细分实现了令人印象深刻的表现。但是，它们的编码不同类别（例如遏制和排除）之间拓扑相互作用的能力受到限制。这些约束自然出现在生物医学图像中，对于提高分割质量至关重要。在本文中，我们介绍了一个新型的拓扑交互模块，将拓扑相互作用编码为深神经网络。该实施完全基于卷积，因此非常有效。这使我们有能力将约束结合到端到端培训中，并丰富神经网络的功能表示。该方法的功效在不同类型的相互作用上得到了验证。我们还证明了该方法在2D和3D设置以及跨越CT和超声之类的不同模式中的专有和公共挑战数据集上的普遍性。代码可在以下网址找到：https：//github.com/topoxlab/topointeraction

translated by 谷歌翻译

Formal Algorithms for Transformers

Mary Phuong , Marcus Hutter

分类：机器学习 | 人工智能 | 自然语言处理 | 神经与进化计算

2022-07-19

该文档的目的是对变压器体系结构和算法的独立，数学精确的概述（*非*结果）。它涵盖了变压器是什么，他们的训练方式，使用的方式，其关键架构组件以及最突出的模型的预览。假定读者熟悉基本的ML术语和更简单的神经网络体系结构，例如MLP。

translated by 谷歌翻译